2  Lezione 3 - 02/10

Esempio

\begin{bmatrix} & Antony\; and\; Cleopatra& Julius\; Caesar & The\; Tempest & Hamlet & Othello & Macbeth \\ Antony & 1& 1& 0 &0&0&1 \\Brutus & 1 & 1 & 0 & 1 & 0 & 0 \\Caesar & 1 & 1 & 0 & 1 &1 & 1 \\Calpurnia & 0 & 1 & 0 & 0 & 0 & 0 \\ mercy & 1 & 0 & 1 & 1 & 1 & 1 \end{bmatrix}

Brutus AND Caesar BUT NOT Calpurnia

Prendo i vettori:

  • Brutus: 110100
  • Caesar 110111
  • Calpurnia (complementato) 101111

Opero il Bitwise:

  • 110100 AND 110111 AND 101111 = 100100

Risultato: I documenti rilevanti sono il primo (Antony and Cleopatra) e il quarto (Hamlet)

Pro Contro
Modello molto semplice Non vi è ranking
Non preservo l’ordine e il numero di occorrenze delle parole
Difficile esprimere richieste utente complesse, perchè andrebbero trasformate in espressioni booleane
Difficoltà nel controllare il numero di documenti rilevanti, perchè tutti saranno risultato della query
Difficoltà nel fare relevance feedback: non so come modificare la query per tenere conto del feedback utente

^1 può essere reso più smart, ad esempio se consideriamo la parola San Francisco, è ovvio che vogliamo che questo sia un singolo token e che non venga diviso sulla base dello spazio